存在几种数据驱动方法,使我们的模型时间序列数据能够包括传统的基于回归的建模方法(即,Arima)。最近,在时间序列分析和预测的背景下介绍和探索了深度学习技术。询问的主要研究问题是在预测时间序列数据中的深度学习技术中的这些变化的性能。本文比较了两个突出的深度学习建模技术。比较了经常性的神经网络(RNN)长的短期记忆(LSTM)和卷积神经网络(CNN)基于基于TCN的时间卷积网络(TCN),并报告了它们的性能和训练时间。根据我们的实验结果,两个建模技术都表现了相当具有基于TCN的模型优于LSTM略微。此外,基于CNN的TCN模型比基于RNN的LSTM模型更快地构建了稳定的模型。
translated by 谷歌翻译
Modern autonomous driving system is characterized as modular tasks in sequential order, i.e., perception, prediction and planning. As sensors and hardware get improved, there is trending popularity to devise a system that can perform a wide diversity of tasks to fulfill higher-level intelligence. Contemporary approaches resort to either deploying standalone models for individual tasks, or designing a multi-task paradigm with separate heads. These might suffer from accumulative error or negative transfer effect. Instead, we argue that a favorable algorithm framework should be devised and optimized in pursuit of the ultimate goal, i.e. planning of the self-driving-car. Oriented at this goal, we revisit the key components within perception and prediction. We analyze each module and prioritize the tasks hierarchically, such that all these tasks contribute to planning (the goal). To this end, we introduce Unified Autonomous Driving (UniAD), the first comprehensive framework up-to-date that incorporates full-stack driving tasks in one network. It is exquisitely devised to leverage advantages of each module, and provide complementary feature abstractions for agent interaction from a global perspective. Tasks are communicated with unified query design to facilitate each other toward planning. We instantiate UniAD on the challenging nuScenes benchmark. With extensive ablations, the effectiveness of using such a philosophy is proven to surpass previous state-of-the-arts by a large margin in all aspects. The full suite of codebase and models would be available to facilitate future research in the community.
translated by 谷歌翻译
在鸟眼中学习强大的表现(BEV),以进行感知任务,这是趋势和吸引行业和学术界的广泛关注。大多数自动驾驶算法的常规方法在正面或透视视图中执行检测,细分,跟踪等。随着传感器配置变得越来越复杂,从不同的传感器中集成了多源信息,并在统一视图中代表功能至关重要。 BEV感知继承了几个优势,因为代表BEV中的周围场景是直观和融合友好的。对于BEV中的代表对象,对于随后的模块,如计划和/或控制是最可取的。 BEV感知的核心问题在于(a)如何通过从透视视图到BEV来通过视图转换来重建丢失的3D信息; (b)如何在BEV网格中获取地面真理注释; (c)如何制定管道以合并来自不同来源和视图的特征; (d)如何适应和概括算法作为传感器配置在不同情况下各不相同。在这项调查中,我们回顾了有关BEV感知的最新工作,并对不同解决方案进行了深入的分析。此外,还描述了该行业的BEV方法的几种系统设计。此外,我们推出了一套完整的实用指南,以提高BEV感知任务的性能,包括相机,激光雷达和融合输入。最后,我们指出了该领域的未来研究指示。我们希望该报告能阐明社区,并鼓励对BEV感知的更多研究。我们保留一个活跃的存储库来收集最新的工作,并在https://github.com/openperceptionx/bevperception-survey-recipe上提供一包技巧的工具箱。
translated by 谷歌翻译
基于尺寸的生物颗粒/细胞分离对于外泌体和DNA分离等应用的多种生物医学处理步骤至关重要。这种微流体设备的设计和改进是最佳回答生产均质最终结果的需求的挑战。确定性的横向位移(DLD)利用了类似的原则,该原理在多年来引起了广泛的关注。但是,缺乏对粒子轨迹及其诱导模式的预测性理解,使设计DLD设备成为迭代过程。因此,本文研究了一个快速的多功能设计自动化平台来解决此问题。为此,采用了卷积和人工神经网络来学习各种DLD配置的速度场和临界直径。后来,将这些网络与多目标进化算法结合使用,以构建自动化工具。在确保神经网络的准确性之后,对开发的工具进行了12个关键条件测试。达到施加的条件,自动化组件可靠地执行,误差小于4%。此外,该工具可以推广到其他基于现场的问题,并且由于神经网络是该方法不可或缺的一部分,因此它可以为类似物理学进行转移学习。本研究中生成和使用的所有代码与预先训练的神经网络模型都可以在https://github.com/hoseynaamiri/dldnn上获得。
translated by 谷歌翻译
由于3D格式存储的大量信息,3D深度学习是一个越来越多的感兴趣领域。三角形网格是不规则,不均匀3D对象的有效表示。但是,由于其高几何复杂性,网格通常具有挑战性的注释。具体而言,为网格创建细分面具是乏味且耗时的。因此,希望使用有限标记的数据训练分割网络。自我监督的学习(SSL)是一种无监督的表示学习的一种形式,它是对完全监督学习的替代方法,可以减轻监督的培训负担。我们提出了SSL-MESHCNN,这是一种用于网格分割的预训练CNN的自我监督的对比学习方法。我们从传统的对比学习框架中汲取灵感来设计专门针对网格的新颖对比度学习算法。我们的初步实验显示了将网状分割所需的重型标记数据需求减少至少33%的有希望的结果。
translated by 谷歌翻译
机器人社区早已期望在混乱环境中处理物体的能力。但是,大多数作品只是专注于操纵,而不是在混乱的对象中呈现隐藏的语义信息。在这项工作中,我们介绍了在混乱的场景中进行体现探索的场景图,以解决此问题。为了在混乱的情况下验证我们的方法,我们采用操纵问题答案(MQA)任务作为我们的测试基准,该测试基准要求具有体现的机器人具有主动探索能力和视觉和语言的语义理解能力。任务,我们提出了一种模仿学习方法,以生成探索的操作。同时,采用了基于动态场景图的VQA模型来理解操纵器手腕摄像头的一系列RGB帧以及操纵的每一步,以在我们的框架中回答问题。我们提出的框架对于MQA任务有效,代表了混乱的场景中的任务。
translated by 谷歌翻译
在本文中,我们设计,分析收敛属性并解决截然的实现方面。这是一个新颖的异步公平自适应联合学习框架,用于溪流的物联网应用环境,其特征是随时间变化的操作条件,异质资源限制的设备(即同事),非I.I.I.D。本地培训数据和不可靠的通信链接。 AFFED的关键新事物是:(i)同事和中央服务器的两组适应性调谐的公差阈值和公平系数; (ii)分布式自适应机制,使每个同事都可以自适应地调整自己的沟通速度。一组新的分析界限(可能)正式公布了对所得的AFFAD收敛率(例如,第一和第一和,首先,首先和)对产生的AFFAD收敛率的影响,从(可能)正式公布了一组新的分析范围,例如(fl),第一和连续模型更新,数据偏度,通信数据包损失概率以及用于模型聚合的(自适应调谐)混合系数的最大/最小值的连续模型更新,数据偏度,通信数据包损失概率以及最大/最小值的第二瞬间。
translated by 谷歌翻译
最近,视觉变压器变得非常流行。但是,将它们部署在许多应用程序中的计算昂贵部分是由于注意力块中的软磁层。我们引入了一个简单但有效的,无软的注意力块Sima,它使用简单的$ \ ell_1 $ -norm而不是使用SoftMax层,将查询和密钥矩阵归一化。然后,SIMA中的注意力块是三个矩阵的简单乘法,因此SIMA可以在测试时间动态更改计算的顺序,以在令牌数量或通道数量上实现线性计算。我们从经验上表明,SIMA应用于变形金刚,DEIT,XCIT和CVT的三种SOTA变体,与SOTA模型相比,SIMA可在不需要SoftMax层的情况下达到PAR准确性。有趣的是,将SIMA从多头更改为单头只会对精度产生很小的影响,这进一步简化了注意力障碍。该代码可在此处找到:$ \ href {https://github.com/ucdvision/sima} {\ text {this https url}} $
translated by 谷歌翻译
3D视觉感知任务,包括基于多相机图像的3D检测和MAP分割,对于自主驾驶系统至关重要。在这项工作中,我们提出了一个称为BeVformer的新框架,该框架以时空变压器学习统一的BEV表示,以支持多个自主驾驶感知任务。简而言之,Bevormer通过通过预定义的网格形BEV查询与空间和时间空间进行交互来利用空间和时间信息。为了汇总空间信息,我们设计了空间交叉注意,每个BEV查询都从相机视图中从感兴趣的区域提取了空间特征。对于时间信息,我们提出暂时的自我注意力,以将历史bev信息偶尔融合。我们的方法在Nuscenes \ texttt {test} set上,以NDS度量为单位达到了新的最新56.9 \%,该设置比以前的最佳艺术高9.0分,并且与基于LIDAR的盆地的性能相当。我们进一步表明,BeVormer明显提高了速度估计的准确性和在低可见性条件下对象的回忆。该代码可在\ url {https://github.com/zhiqi-li/bevformer}中获得。
translated by 谷歌翻译
最近已经提出了3D车道检测的方法,以解决许多自动驾驶场景(上坡/下坡,颠簸等)中不准确的车道布局问题。先前的工作在复杂的情况下苦苦挣扎,因为它们对前视图和鸟类视图(BEV)之间的空间转换以及缺乏现实数据集的简单设计。在这些问题上,我们介绍了Persformer:具有新型基于变压器的空间特征变换模块的端到端单眼3D车道检测器。我们的模型通过参考摄像头参数来参与相关的前视本地区域来生成BEV功能。 Persformer采用统一的2D/3D锚设计和辅助任务,以同时检测2D/3D车道,从而提高功能一致性并分享多任务学习的好处。此外,我们发布了第一个大型现实世界3D车道数据集之一:OpenLane,具有高质量的注释和场景多样性。 OpenLane包含200,000帧,超过880,000个实例级别的车道,14个车道类别,以及场景标签和封闭式对象注释,以鼓励开发车道检测和更多与工业相关的自动驾驶方法。我们表明,在新的OpenLane数据集和Apollo 3D Lane合成数据集中,Persformer在3D车道检测任务中的表现明显优于竞争基线,并且在OpenLane上的2D任务中也与最新的算法相当。该项目页面可在https://github.com/openperceptionx/persformer_3dlane上找到,OpenLane数据集可在https://github.com/openperceptionx/openlane上提供。
translated by 谷歌翻译